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摘要 :【[ 目的 /意义 ] 为 帮助 用 户 检索 到 完整 的 粒度 大 小 适当 的 知识 单元 ,满足 用 户 多 粒度 的 知识 需求 。[ 方 
法 “过程 ] 提 出 一 种 基于 知识 元 的 文本 层级 分 割 方法 。 该 方法 首先 对 知识 元 的 类 型 及 其 描述 规则 进行 分 析 ; 然后 依 
据 知 识 元 描述 规则 识别 实体 资源 中 的 各 类 型 知识 元 ,并 将 所 有 的 知识 元 和 知识 元 之 间 的 衔接 句 视 为 一 个 类 ;最 后 
基于 fisher 分 割 算法 对 该 类 进行 逐 级 二 分 ,直到 识别 出 所 有 的 主题 为 止 ,确定 分 割 边界 ,实现 文本 层级 分 割 。[ 结 
果 / 结 论 ] 基 于 知识 元 的 中 文 文本 层级 分 割 方法 ,一 方面 使 得 文本 分 割 单 元 从 句子 扩展 为 知识 元 ,提高 分 害 时 的 效 
率 , 另 一 方面 将 知识 服务 的 控制 单元 从 文献 深入 到 以 知识 元 、 知 识 元 集合 为 单位 的 知识 块 , 按 需 为 用 户 提供 相关 知 


识 服务 ,使 数据 检索 、 信 息 检 索 向 知识 检索 迈进 ,提高 知识 获取 效率 ,实现 信息 服务 向 知识 服务 的 转型 。 
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随 着 网 络 技术 的 发 展 ,网 络 信息 资源 快速 膨胀 ,人 
EE ME ,生活 节奏 的 加 快 ,以 往 的 检索 系统 很 难 较 好 地 
满 十 用 户 的 知识 需求 ,这 是 由 于 传统 的 检索 系统 通常 
以 篇 章 为 单位 进行 检索 ,其 返回 结果 通常 是 整 篇 文献 ， 
导 疆 信息 过 载 ,使 得 用 户 不 得 不 花费 大 量 的 时 间 和 精 
力 鳃 篇 阅读 文献 才能 查找 定位 到 文献 中 所 殖 含 的 知 
识 浪 费用 户 大 量 的 时 间 。 事实 上 ,用 户 检索 的 主要 目 
的 各 能 够 及 时 查找 到 满足 其 知识 需求 的 粒度 大 小 适当 
的 知识 块 ,为 解决 这 一 问题 ,实现 深入 文献 内 部 的 多 粒 
度 知识 服务 ,这 就 需要 对 文本 进行 多 粒度 的 层级 分 割 。 
为 此 ,本 文 提出 了 基于 知识 元 对 文献 进行 层级 分 割 的 
方法 ,帮助 实现 基于 知识 元 .知识 元 集合 的 多 粒度 知识 
服务 ,使 得 用 户 在 进行 知识 检索 时 ,能 够 准确 得 到 其 所 
需要 的 知识 模块 ,而 不 是 整 篇 文档 ,使 数据 检索 .信息 
检索 向 知识 检索 迈进 ,提高 知识 获取 效率 ,实现 信息 服 
务 向 知识 服务 转型 。 


2 文本 分 割 研究 现状 


文本 分 割 是 指 在 一 个 书面 文档 中 自动 识别 具有 独 


立意 义 的 知识 单元 之 间 的 边界 的 过 程 ,其 在 信息 检索 
和 文本 智能 处 理 等 领域 有 着 重要 的 应 用 '，。 目 前 , 国 
内 外 学 者 对 文本 分 割 的 相关 研究 已 经 有 了 初步 的 成 
Ro 一般 而 言 ,文本 分 割 大 致 分 为 两 大 类 ,一 类 是 线性 
分 割 ,即将 文本 分 成 连续 片段 ,不 考虑 文本 内 在 结构 ， 
第 二 类 是 层级 分 割 ,即将 文档 迭代 分 割 为 更 精细 的 具 
有 层次 结构 的 片段 。 
2.1 文本 线性 分 割 研究 现状 

目前 ,常用 的 线性 分 割 方法 主要 分 为 以 下 儿 类 : 基 
于 语言 特征 的 分 割 、 基 于 词汇 集聚 的 分 割 、 基 于 主题 模 
型 的 分 割 以 及 使 用 以 上 不 少 于 两 种 的 混合 方法 的 分 
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基于 语言 特征 的 分 割 方法 是 从 文本 中 提取 词汇 特 
征 ,研究 它们 与 主题 片段 首尾 之 间 的 关系 ,进而 来 确定 
主题 边界 。J. C. Reynar 提出 了 一 种 基于 词汇 特征 的 
文本 分 割 算法 , 即 单独 或 组 合 使 用 特征 来 识别 若干 文 
档 中 的 主题 转换 ” 。 邹 箭 和 钟 茂生 等 考虑 到 中 文 文本 
的 特殊 性 ,提出 了 针对 中 文 的 文本 分 割 模型 ,根据 语 料 
库 和 词典 对 词语 的 相关 度 进行 计算 来 分 析 句 子 之 间 的 
相关 度 , 并 进行 分 割 ”。 然 而 ,这 种 方法 只 适用 于 一 些 
含有 明显 的 形式 化 信息 的 特定 文本 ,无 法 适用 各 种 文 


* 本 文系 教育 部 人 文 社会 科学 研究 青年 基金 “数字 图 书馆 馆藏 资源 多 粒度 层级 主题 分 割 研 究 ”( 项 目 编号 :16YJC870003 ) 研究 成 果 之 一 。 

作者 简介 : 王 忠 义 (ORCID :0000 -0001 -8945 -783X) ,副教授 ,博士 ,硕士 生 导 师 ,E-mail;wzywzy13579@163. com; 沈 雪 莹 (ORCID:0000 -0002 
-2944 -4399 ) ,硕士 研究 生 ; 黄 京 (ORCID :0000 -0003 -2938 -8507 ) ,副教授 

收 稿 日 期 :2018 -06 -22 修 回 日 期 :2018 -10-11 本文 起 止 页 码 :105 -115 ”本文 责任 编辑 : 杜 杏 叶 


105 


图 二 情报 三 作 


第 63 卷 第 7 期 2019 年 4 月 


hins nA de HHI] 
CI IInaA IV ET TFERHT l 


本 ,移植 性 较 差 。 

基于 词汇 集聚 进行 分 割 的 思想 来 源 于 M. A. K. 
Halliday 和 R. Hasan ,他 们 将 词汇 聚集 的 表现 归纳 为 词 
的 重复 或 变相 重复 以 及 词汇 之 间 的 语义 联系 ” SH. 
Kozima 对 于 如 何 测量 词汇 紧凑 度 提出 了 一- 种 词汇 集聚 
图 (LCP) 的 文本 线性 分 割 方法 加 。J C. Reynar 和 M. 
A. Hearst 基于 该 理念 分 别提 出 了 Dotplotting 算法 与 
TextTiling 算法 ,Dotplouing 算法 主要 完全 依赖 于 单词 
重复 来 找到 紧密 的 主题 相似 区 域 , 进 而 识别 边界 点 ” ， 
而 TextTiling 算法 主要 基于 单词 重复 和 单词 矢量 的 相 
似 性 计算 文本 单元 之 间 的 相似 性 ,来 确定 边界 "1 。F. 
Y. Y. Choi 基于 Dotplotting 算法 提出 了 C99 算法 ,该 
算法 是 建立 在 文档 中 所 有 句子 的 相似 矩阵 , 即 通过 计 
算 闫 本 中 句子 之 间 的 余弦 相似 度 构建 相似 度 矩 阵 ,对 
相 候 矩阵 进行 排序 进而 优化 ,然后 使 分 割 单位 的 内 部 
蜜 凯 最 大 化 ,进而 实现 分 割 ”。J M. Ponte 和 W. B. 
Ci 鲍 利 用 词汇 之 间 的 语义 联系 ,提出 了 一 种 基于 局 部 
ED 文 分 析 的 文本 分 割 方法 ,用 来 查找 与 每 个 句子 相 
养 蛤 单词 和 短语 ”。 其 他 基于 词汇 聚集 的 方法 ,较为 
限时 的 就 是 基于 词汇 链 的 文本 分 割 ,]， Morris 认为 词 
2 拓 的 首尾 与 文本 结构 具有 对 应 关系 ,可 以 计算 词汇 
链 - 以 此 度量 片段 边界 " 。 上 述 分 割 方法 完全 基于 文 
相让 所 包含 的 信息 进行 分 割 。 但 是 , 当 特 定 主题 中 的 
句 池 由 于 使 用 同义词 而 不 共享 通用 词 并 允许 语义 上 相 
泡 括 词 表 示 主 题 连 续 性 时 ,上 述 分 割 算法 可 能 无 法 确 
定好 靠 的 边界 。 
-三 为 了 克服 上 述 分 割 中 的 不 重复 问题 ,主题 模型 也 
受 梧 关注 ,其 不 仅 通过 语义 信息 来 进行 文本 分 割 ,而 且 
还 用 于 减少 单词 向 量 的 稀 朴 性 。F.、Y. Y. Choi 等 人 
提出 了 一 种 通过 潜在 语义 分 析 (LSA) 来 估计 句子 间 相 
似 性 的 线性 分 割 的 方法 "1。 石 晶 提出 了 基于 概率 潜 
在 语义 分 析 (PLSA ) 模型 和 基于 潜在 狄 利克 雷 (LDA) 
模型 的 文本 分 割 方法 ,并 进行 比较 ,通过 实验 发 现 基于 
LDA 模型 进行 分 割 的 准确 度 比 PLSA dg 7775, M. 
Riedl 和 C. Biemann 介绍 了 将 LDA( 湾 在 狄 利克 雷 分 
配 ) 主题 模型 并 入 文本 分 割 算法 的 一 般 方法 ,结果 表 
明 , 主 题 模型 添加 的 语义 信息 显著 提高 了 TextTiling 和 
C99 两 种 基于 词 的 算法 的 性 能 J. Eisenstein FI R. 
Barzilay 提出 一 种 新 的 贝 叶 斯 方法 来 进行 无 监督 的 主 
题 分 割 , 即 通过 将 每 个 主题 段 中 的 单词 用 与 该 段 相关 
的 多 项 语言 模型 绘制 ,并 进行 建 模 ,可 以 将 词汇 内 聚 置 
于 贝 叶 斯 概率 模型 中 ,在 此 模型 中 观察 最 大 可 能 产生 
一 个 词汇 内 聚 的 分 割 ”。P.， Mulbregt 等 人 引入 用 于 
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文本 分 割 的 隐 马 尔 可 夫 模 型 来 进行 主题 检测 和 跟 
踪 ""。 尽 管 主 题 模型 能 够 很 好 地 提高 文本 分 割 的 性 
能 ,但 是 ,此 类 方法 的 主题 个 数 则 普遍 依赖 于 人 工 , 针 
对 不 同 的 数据 集 , 最 优 主题 个 数 不 同 。 

很 多 学 者 在 研究 文本 分 割 时 ,会 将 两 种 或 更 多 的 
方法 组 合 起 来 以 获取 更 好 的 分 割 效 果 。T. Brants 和 
F. Chen 等 人 提出 将 概率 潜在 语义 分 析 (PLSA ) 模 型 与 
相 邻 块 之 间 的 相似 度 值 选择 分 割 点 的 方法 相 结合 来 选 
f£", M. Riedl 等 人 提出 了 将 TextTiling 和 LDA 模型 
相 结合 的 TopicTiling 方法 , 即 通 过 LDA 模型 获得 最 终 
的 主题 分 布 ,使 主题 模型 对 文本 的 表示 更 加 稳定 。 
M. Y. Kan 提出 了 将 词汇 衔接 的 特征 与 布局 识别 中 的 
元 素 进行 整合 ,以 建立 一 个 复合 框架 ,进而 使 用 框架 来 
计算 文档 结构 的 方法 。 

2.2 文本 层级 分 割 研究 现状 

尽管 人 们 普遍 认为 大 多 数 文 档 是 具有 层次 结构 
的 ,但 是 有 关 研 究 文本 层次 分 割 的 文献 相对 较 少 。YY. 
Yaari 提出 了 一 种 无 监督 的 分 层 主题 分 割 方法 ,如 同 在 
TextTiling 中 ,使 用 余弦 相似 度 测量 内 聚 力 ,并 使 用 聚 
类 来 形成 段落 上 的 树 状 图 ,然后 使 用 启发 式 算 法 将 树 
形 图 转换 为 分 层 分 割 ” ,但 是 这 种 启发 式 方法 通常 是 
易 碎 的 ,因为 其 包含 的 许多 参数 需要 手动 调节 。 为 了 
克服 这 些 问 题 J. Eisenstein 提出 了 一 种 新 型 无 监督 的 
方法 来 执行 文本 分 层 分 割 ,该 方法 集成 了 贝 叶 斯 概率 
框架 ,利用 多 尺度 凝聚 力 来 实现 分 层 分 割 ” 。 然 而 ， 
由 于 段落 层次 的 词汇 数量 稀少 ,该 方法 并 没有 扩展 到 
更 细 粒 度 的 片段 ,比如 段落 ,这样 将 有 必要 明确 语 篇 连 
接 词 和 词汇 语义 描述 。Y. W. Teh 等 基于 层次 分 割 提 
出 了 分 层 狄 利克 雷 过 程 (HDP) 模型 。 李 天 彩 和 王 
波 等 提出 了 一 种 基于 HDP 模型 运用 C99 分 割 算 法 进 
行文 本 层次 分 割 , 即 首先 使 用 HDP 模型 对 文本 进行 向 
量 空间 表示 ,然后 将 主题 向 量 用 于 C99 分 割 算法 来 实 
3L) 8I 7 。 该 方法 有 助 于 优化 文本 分 割 ,但 是 对 于 较 
短 段落 的 分 割 错 误 率 较 高 。 

综 上 所 述 ,学 术 界 对 文本 分 割 的 研究 不 断 改 进 ,但 
是 对 文档 进行 层级 分 割 的 研究 相对 较 少 ,然而 数字 图 
书馆 的 数字 馆藏 资源 大 都 体现 出 层级 结构 ,为 实现 对 
数字 馆藏 资源 的 多 粒度 层级 组 织 , 需 要 在 此 基础 上 对 
文档 层级 分 割 方法 展开 进一步 深入 研究。 此 外 , 现 有 
的 文档 分 割 方法 通常 以 一 句 话 、 儿 人 句 话 或 一 个 段落 作 
为 最 小 分 割 单元 ,这 些 分 割 单元 无 法 保障 自身 在 逻辑 
上 是 一 个 完整 的 知识 单元 ,要 么 粒度 过 细 制 裂 了 知识 
之 间 的 内 在 联系 ,要 么 粒度 过 粗 模糊 了 知识 之 间 的 界 
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限 ,这 些 现象 都 将 导致 文档 分 割 的 错误 率 较 高 。 而 知 
识 元 作为 具有 相对 独立 意义 的 不 可 再 分 的 最 小 知识 单 
元 ,是 构成 知识 结构 的 基 元 ,因此 ,以 知识 元 为 单位 进 
行文 档 层级 分 割 将 可 以 有 效 解 决 上 述 问题 。 基 于 上 述 
分 析 ,本 文 在 前 人 研究 的 基础 上 ,提出 基于 知识 元 的 中 
文 文本 层级 分 割 方法 ,以 知识 元 为 基 元 来 对 文档 进行 
层级 分 割 , 这 将 有 利于 将 数字 图 书馆 知识 组 织 的 单位 
由 粗 粒 度 的 文献 单元 深入 到 细 粒 度 的 知识 元 层次 。 


3 ”知识 元 的 识别 


3.1 ”知识 元 的 描述 规则 

为 实现 基于 知识 元 的 文档 层级 分 割 ,首先 要 识别 
文档 中 的 知识 元 。 本 文 基于 规则 的 方法 对 文本 中 的 知 
误 元 进行 识别 。 由 于 不 同类 型 的 知识 元 描述 规则 不 
同 癌 了 统计 规则 的 完整 性 ,需要 分 析 知识 的 类 型 。 目 
前 铺 对 知识 元 的 分 类 ,不 同学 者 有 着 不 同 的 见解 。 温 
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从 多 认为 知识 元 的 类 型 主要 分 成 两 大 类 , 即 描述 型 和 


人 3 a 5 "m bw 
过 得 型 ,前 者 包括 信息 型 名 词 解释 型 数值 型 ,问题 描 


述 型 和 引证 型 ,后 者 包括 步 又 型 ,方法 型 定义 型 ,原理 
AERIS de 87" 。 张 静 根 据 对 中 小 学 各 学 科 中 所 含 知 
训 的 研究 ,将 知识 元 分 为 :概念 型 .原理 型 .方法 型 事 
实 型 和 陈述 型 ""。 原 小 玲 根 据 知识 元 表达 的 内 容 将 
知 江 元 分 为 理论 与 方法 型 事实 型 和 数值 型 。 赵 基 
英 炊 知识 元 划分 为 陈述 型 和 程序 型 ,前 者 包括 事实 知识 
谊 定义 知识 元 和 结论 知识 元 等 陈述 型 内 容 ,后 者 包含 
方法 知识 元 和 关系 知识 元 等 具有 内 在 结构 的 内 容 ” 。 
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综 上 所 述 ,不 难 发 现 有 些 学 者 对 知识 元 的 分 类 过 细 ,不 
同类 型 知识 元 之 间 存 在 交叉 ,如 温 有 奎 提出 的 名 词 解 
释 型 和 定义 型 ,这 两 个 句 型 结构 以 及 描述 规则 大 致 是 
一 样 的 。 有 些 学 者 对 知识 元 分 类 过 粗 ,未 能 包含 所 有 
的 知识 元 类 型 。 因 此 ,本 文 结合 前 人 的 观点 ,基于 文献 
的 内 容 表达 方式 将 知识 元 分 为 描述 型 和 过 程 型 ,前 者 
包括 概念 知识 元 .事实 知识 元 和 数值 知识 元 ,后 者 包括 


方法 知识 元 和 关系 知识 元 。 知 识 元 的 分 类 及 其 关系 如 
1 Br: 
概念 知识 元 
描述 型 事实 知识 元 
知识 元 数值 知识 元 
umm 方法 知识 元 
关系 知识 元 


图 1 知识 元 的 分 类 及 相关 关系 


本 文选 取 期 刊 论文 为 研究 对 象 ,分 别 选择 13 门 学 
科 中 排名 前 5 的 核心 期 刊 ,并 在 每 门 学 科 的 每 个 核心 
期 刊 中 选取 近 五 年 被 引 量 前 10 的 文章 , 即 共 计 650 篇 
文献 作为 训练 语 料 。 然 后 ,对 这 些 期 刊 论文 进行 文档 
解析 ,转换 成 纯 文本 ,分 别提 取出 中 文摘 要 、 关 键 词 以 
及 正文 部 分 。 接 着 从 训练 语 料 的 关键 词 信 息 和 摘要 信 
息 中 提取 描述 文献 主题 的 关键 词 集合 ,作为 初始 的 术 
语 表 。 而 后 根据 得 到 的 术语 表 , 对 语 料 中 包含 术语 的 
知识 元 语句 进行 抽取 ,并 过 滤 掉 知识 元 语句 中 的 领域 
词 ,得 到 句子 的 线性 句 式 结构 。 最 后 ,人 工 审核 ,校对 ， 
并 依据 知识 元 类 型 对 句 式 结构 进行 归 类 汇总 ,生成 各 
知识 元 类 型 的 描述 规则 。 其 流程 如 图 2 所 示 : 


C .- 
£5 AEH 文档 解析 zi 纯 文本 (H 


知识 元 语 名 


BOLSOS. 领域 词 过 小 | 句子 线性 结构 m Egg 


描述 规则 


形成 初始 术语 表 上 | 


图 2 生成 知识 元 描述 规则 流程 图 


3.1.1 描述 型 知识 元 的 描述 规则 

(1) 概 念 知识 元 描述 规则 。 概 念 知 识 元 是 一 种 较 
为 抽象 概括 的 有 组 织 的 知识 性 描述 ,也 是 对 某 个 对 象 
的 本 质 特征 或 外 延 的 简要 说 明 , 即 表明 某 一 学 科 领 域 
的 对 象 是 如 何 加 以 组 织 的 ,如 何 体现 出 系统 一 致 的 方 
式 以 及 名 词 术语 等 的 解释 ,特点 和 作用 。 甚 描述 中 含 
有 的 特征 词 一 般 有 “是 ”“ 是 指 ”" 和 “定义 为 "等 ,有 关 该 
类 知识 元 的 描述 规则 总 结 见 表 1。 

(2) 事 实 知识 元 描述 规则 。 事 实 知识 元 包括 自 
JR ,社会 存在 和 演变 的 事实 信息 ,一 般 是 对 研究 的 背 
景 现存 问题 以 及 专家 或 者 国际 观点 .认识 等 信息 的 描 


述 。 本 文 参照 文献 [27] 将 事实 知识 元 分 为 观点 型 . 序 
列 型 直 述 型 .分析 预测 型 和 事件 型 。 观 点 型 事实 知识 
元 一 般 是 对 事实 发 表 观 点 的 结构 的 描述 , 句 式 简单 ,其 
句 式 结构 一 般 为 :观点 发 出 者 + 观点 内 容 + 观 点 释义 。 
序列 型 事实 知识 元 是 对 事实 进行 形式 化 的 描述 ,由 序 
列 性 的 连接 词 构 成 ,条 例 清晰 ,结构 分 明 。 其 特征 词 一 
般 为 数字 连接 词 和 表达 序列 关系 的 连接 词 。 直 述 型 即 
直接 叙述 型 ,对 事实 进行 直接 的 陈述 性 表达 ,不 存在 句 
式 上 的 修辞 ,一 般 没 有 特定 的 描述 规则 。 其 句 式 结 构 
一 般 为 :主语 + 论述 内 容 , 其 中 关键 词 术语 表 内 容 作为 
主语 ,后 衔接 论述 内 容 。 预 测 型 事实 知识 元 是 根据 事 
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表 1 


念 知 识 元 描述 规则 


概念 知识 元 描述 规则 


Term + 是 指 /是 / 指 / 称 / 称 作 / 称 为 / 称 之 为 / 叫 / 叫 做 /内涵 是 /定义 是 /定义 
层 含义 为 /概念 /意思 /定义 如 下 
所 谓 /关于 + Term +[ 是 / 指 /是 指 / 即 ]… 


为 /本 质 即 /实质 是 /有 NN 


… 被 称 为 /被 定义 为 + Term 


Term + 具有 以 下 特点 /优点 /缺点 /不 足 / 缺 陷 / 好 处 /特征 :… 
Term + 具有 / 尚 存 / 存 在 /融合 了 /综合 了 /兼顾 了 /克服 了 /避免 了 . . 
点 /特征 /特性 /问题 /优点 / 缺 di 


Term + 克服 /避免 /无 法 /不 能 


/ 即 / 又 称 … 


: 的 特 


/局 限 / 缺 陷 


Term + 对 … 来 说 是 … 挑 战 

… 表 明 / 与 … 相 比 ,…+Tem +( 在 … 方 面 ) + 更 具 / 好 处 是 … 

Term + 可 以 /能 够 /能 /不 能 /有 助 于 /有 利于 /有 益 于 /提高 了 /打破 了 /减少 
了 /常用 来 /主要 用 于 /侧重 于 /揭示 /导致 /影响 / 带 来 /改变 了 /阻碍 /限制 / 
帮助 /用 于 /适用 于 /可 用 于 /被 应 用 到 /被 用 于 … 

Term + 不仅 要 /不 仅 能 … 还 (并 且 ) 要 /还 (并 且 ) 能 

Term + 的 职能 /作用 /功能 /( 主要 ) 用 于 /用 来 /用 作 / 用 做 … 


Term + … 在 … 有 着 /得 到 … 的 应 
Term + 极 易 + 带 来 /造成 /提高 … 


Tem (具有 NN 个 显著 的 特征 


/功能 /效用 /意义 


y2 


影响 /效率 /作用 ) 


细 分 为 N 个 层次 /主要 有 /包含 /包括 /由 NN 
部 绍 构 成 (组 成 ))…, 其 中 ,第 一 /一 /一 是 /(1)/D/a… 
;第 三 /三 /三 是 /(3)/@/e… 


E L——R 


SEI EYE, HAIER ERER "ARIEC E 


oed ooi, 事件 型 事实 知识 元 是 对 一 个 事 
伯 的 完整 性 陈述 ,一 般 涉 及 事件 发 生 的 地 点 .时间 、 人 
特 驳 。 其 句 式 结构 一 般 为 :时 间 点 + 主语 + 地 点 + 事 
VE itt «mtl e 地 点 + 事件 。 有 关 该 类 知识 元 的 


描 运 规则 如 表 2 所 示 : 
N X2 事实 知识 元 描述 规则 
PÉ e (在 )… 中 (时 ) 指 出 /阐述 /提出 / 提 到 /表示 /表达 /认为 /说 /明确 / 


py 4 XAR AL. 


Lee fa BE 1/ LEN IL] AUR 


指 


(是 /存在 /有 )… 


TRI 以 … 为 理论 起 点 ] + 提出 / 


起 于 /关于 /针对 /对 于 … 提 出 /认为 / 声 aio KR/ 指出 … 


Xie (对 ) 研 究 了 … ,在 … 


实验 证 明了 /实验 结果 表明 + … 


…+( 主 语 ,时 间 ) 
Tv 


(基础 上 ) 提 
ACE 


… 现 实 / 事 实 / 现 象 + 就 是 … 
/分 析 / 通 过 /根据 /依据 /综合 . 


…( 改 进 ) 


…( 角度) ) ,看 出 /+ 了解 到 /得 出 /可 


知 / 反 映 /预计 7 出现/ 发现 /说 明 / 可 知 / 可 见 … 


基于 (此 ) 
未 来 … 
DEN Hate 


(… 年 … 


… 分 析 ( 发 现 )… 


诞生 /召开 … 


… 年 … 月 … 日 )/ 世 纪 / 年 代 /朝代 ,有 关 … 
日 )/ 世 纪 / 年 代 /朝代 / 近 几 年 + 推出 /声明 /上 线 / 创 


主语 + (… 年 … 月 


的 ( 发展) 趋势 + 是 +… 


:月 … 日 )/ 世 纪 / 年 代 / 朝 代 , 于 + 地 点 … 发 生 / 出 席 


有 /创造 /遭遇 / 


+ 声明 /表明 /明确 … 


造 / 确 定 /提供 /印发 /发 布 /宣布 /出 台 … 


造 /确定 / 提 


(3 ) 数 值 知 识 元 描述 规则 。 


言 息 的 基础 上 加 上 量词 或 者 符号 
第 二 类 的 基础 上 加 上 句子 中 


组 成 的 ,第 三 类 是 在 


其 他 的 描述 成 分 所 组 成 。 


从 上 述 分 类 中 可 以 看 出 ,数值 知识 元 是 在 数量 类 数值 
言 息 的 基础 上 形成 的 ,与 数值 信息 直接 相关 的 词 不 多 ， 
运用 数值 来 进行 描述 说 明 的 相关 词 主 要 就 是 数字 、 量 


词 和 特定 符号 , 即 数值 + 单位 。 描 
年 … 月 … 日 至 … 


间 表 述 一 般 为 :(… 
年 … 月 … 日 )/( 截 至 /截止 /日 


述 数 值 的 句子 中 ,时 
ag He BE Y] Ce 


期 /时 间 为 )/ 年 代 / 朝 


代 / 世 纪 ; 单 位 一 般 为 :个 /篇 / 件 / 元 /条 /名 /位 等 ;指标 


pud dit pu 


zur 


含 数值 的 句 群 ,判断 识 


别 的 句 群 中 的 数值 是 否 上 


da e 本 文 可 以 


,首先 识别 出 包 
具有 数值 


价值 ,然后 人 工 对 数值 知识 元 的 线性 结构 进行 汇总 ,最 


后 总 结 出 数值 知识 元 的 描述 规则 , 见 如 表 3 所 示 : 


RI 数值 知识 元 的 描述 规则 
数值 知识 元 描述 规则 


KB] + 主体 + 在 /从 /以 / 选 
(回收 /收集 /采集 /发 放 / 获 
到 /有 /共计 ) + 数值 + 单位 + 指标 

+ 主体 + (从 /在 /以 /选取 ) + source + ( 
下 载 /提供 /进行 /得 /为 /有 /是 /达到 /有 
EJ + 主体 + (最 大 值 /最 小 值 /权重 /并 值 / 


3 mj 


zB E 


/采集 /获取 / 选 自 /通过 /利用 /对 + source + 
/选取 /下 载 /提供 /进行 /得 /为 /有 /是 / 达 


回收 /收集 /采集 /发 放 /获取 / 
/共计 ) + 指标 + 数值 + 单位 
维度 /临界 值 / 相 似 值 /… 率 ) 


+ (达到 /为 / 非 / 介 于 /处 于 / 取 /为 /大 于 /等 
时 间 + 在 数值 ~ 数值 + 单位 + 范围 


E 


+ 数值 + 单位 
is 数值 + 单位 + 主体 + 指标 + 谓词 


3.1.2 过 程 型 知识 元 描述 规则 


FNP 
内 + 主体 + 指标 + 谓词 

间 + 主体 + (中 /过 /好 /到 /有 / 定 / 含 / 内 ) 的 (( 分 别 / 均 / 仅 )( 认 / 设 / 
/成 分 / 示 / 本 / 改 / 否 ) 为 /达到 / 仅 有 /下 降 / 上 升 / 提 高 到 /大 概 为 /最 低 


) + 数值 + 单位 


对 间 + 主体 + ( 获得 /得 到 /实现 /取得 ) + 数值 + 单位 + 指标 


(1) 方 法 知识 元 描述 规则 。 方 法 知识 元 的 核心 主 
要 是 介绍 方法 使 用 过 程 .方法 使 用 步骤 以 及 方法 使 用 


条 件 等 。 关 于 描述 方法 使 用 过 程 的 打 
显 的 则 是 “首先 *“ 然 后 ”等 序列 性 的 词 。 本 文人 


练 语 料 中 关于 方法 知识 元 的 描述 
则 如 表 4 所 示 : 


寺 征 词 ,其 最 为 明 


,大 致 总 结 其 描述 规 


RA 方法 知识 元 描述 规则 
方法 知识 元 描述 规则 


应 借鉴 /加 大 /把 握 / 申 请 /提供 /扩大 /建立 /扭转 /强化 / 细 化 加强/ 及 时 


听取 /完善 /减少 /避免 /采用 / 借 


数值 知识 元 是 从 数字 


的 角度 来 前 述 某 事物 或 事件 的 性 质 及 其 运动 规律 的 认 
识 ,如 用 长 度 高 度 、 货 币 . 时 间 、` 重量. 百分比 等 以 数值 


形式 存在 的 完整 的 描述 。 


一 般 来 说 ,文献 中 描述 数值 


信息 的 一 般 分 为 三 大 类 , 即 基 数 类 数值 信息 ,数量 类 数 


值 信息 以 及 数值 知识 元 ,其 中 ， 第 二 类 是 由 和 
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第 一 类 数值 


实现 … + 除了 要 … 还 要 … 


J E/E 
AF/AN i EZ RAI +M, RACE) 
应 着 手 + 出台/ 发 布 /颁布 /采取 … 公 告 /行动 … 


+ 方式 /手段 /策略 /力度 


,来 (明确 )… 


/防止 /鼓励 /组 织 … 


(其 实现 /为 了 /有 效 措施 /其 有 效 方法 )… 通 过 /利用 
H 


第 一 ( 类 /个 /中 / 步 / 轮 / 年 /阶段 /区 域 /方面 )/ 其 一 /一 要 /一 是 /首先 …， 
第 二 (类 /个 /中 / 步 / 轮 /年 /阶段 /区 域 /方面 )/ 其 二 /二 要 /二 是 /其 次 …， 
第 三 (类 /个 /中 / 步 / 轮 / 年 /阶段 /区 域 /方面 )/ 其 三 /三 要 /三 是 /最 后 … 
从 /在 … 方 面 / 层 面 / 角 1 yt 


(2) 关 系 知 识 元 描述 规则 。 关 系 知 识 元 是 指 


在 … 方 面 /层面 /角度 ,开展 /进行 … 研 究 /探讨 /调查 /讨论 /分 析 


Ig 


ChinaXiv 合 作 期 刊 


IBL, WER, AR. 基于 知识 元 的 中 文 文本 层级 分 割 [J]]. 图 书 情报 工作 ,2019 ,63(7) :105 - 115. 


述 对 象 之 间 的 类 属 ,可 以 从 空间 层次 和 时 间 逻 辑 角 度 
将 对 象 之 间 的 关系 划分 为 :并 列 关系 、 上 下 位 类 属 关 系 、 
改进 关系 演进 关系 、. 递 进 关 系 、 继 承 关 系 、 替 代 关 系 以 
及 因果 关系 ”。 从 静态 关系 来 看 ,包括 并 列 和 上 下 位 类 
属 关 系 。 从 动态 关系 来 看 ,包括 改进 演进、 递 进 、 继 承 
和 替代 等 关系 ,这 些 关 系 主要 特征 词 为 “提出 了 ”“ 改 
进 " 等 。 因 此 ,关系 知识 元 的 描述 规则 如 表 5 所 示 : 
表 5 关系 知识 元 的 描述 规则 
关系 知识 元 描述 规则 

…+ 即 /既是 /是 /并 非 是 … 又 是 /也 是 /相当 于 /同时 也 是 /而 不 是 /而 是 … 

… + 是 /分 为 …, 一 方面 /一 类 是 … 另 一 方面/ 另 一 类 是 … 

… + 主要 包括 /包含 /有 … 

… + 可 视 为 /是 /是 属于 … 的 一 部 分 /组 成 部 分 /基础 /一 支 /一 种 /前 提 / 保 

障 /支柱 

Jn + 从 某 方面 分 析 ， HEt... 

于 Sem/ 方 法 ) + 如 Mi,M> M, 

“统称 为 /并 列 为 … 的 儿 + 关 /大 +… 
《很 据 / 按 照 )… 划 分 为 /有 …, 如 /分 别 是 /具体 有 … 
Ra M Term 还 有 Term 
É + Term ,对 + Term + 提出 了 /进行 了 . . . 改进 /修正 
+ Term + 引信 /借用 /人 参考 到 + Term + 以 /来 . . 
+ 是 + Term + 重要 原因 /因素 /要 素 / 动 机 
HE Term +. 发 挥 /造成 /产生 + Term + 影响 /推动 / 作 
Tean * 引起 /主导 /导致 /影响 /作用 于 + Term 
蔬 和 /一 方面 /一 部 分 /一 类 …; 另 一 种 / 另 一 方面 / 另 一 部 分 / 另 一 类 … 


3QN 知识 元 识别 流程 

同根 据 上 述 总 结 的 各 类 知识 元 的 描述 规则 ,依次 与 
文革 中 的 句子 进 行 匹配 ,匹配 成 功 , 则 标记 该 句子 或 名 
胖 田 知识 元 ,否则 为 起 连接 作用 的 衔接 句 。 在 对 实体 
沽 中 的 知识 元 进行 识别 前 ,如 果 待 识别 的 实体 资源 
不 是 以 文本 的 形式 表示 , 则 应 该 对 其 进行 文档 解析 , 转 
化 现 纯 文本 再 进行 处 理 。 然 后 对 纯 文本 进行 分 词 预 处 
理 4 包 括 文本 分 词 .句子 切 分 等 ,并 将 处 理 后 的 文本 中 
的 句子 以 及 描述 规则 按 顺 序 分 别 存 人 相应 的 数据 库 
中 ,最 后 利用 算法 进行 匹配 ,进而 识别 出 知识 元 。 其 算 
法 匹配 的 具体 流程 如 下 : 


第 一 步 ,判断 文本 库 中 是 否 还 有 其 他 句子 ,如 果 
有 , 则 按 在 文本 中 的 位 置 顺 序 选取 一 个 句子 ,如 果 没 
有 , 转 入 第 五 步 ; 

第 二 步 ,判断 规则 库 中 是 否 还 有 其 他 描述 规则 ,如 
果 有 , 按 顺 序 选取 一 个 规则 ,如 果 没 有 , 则 将 该 句 标 记 
为 衔接 句 ,并 转 入 第 一 步 ; 
第 三 步 ,将 第 一 步 的 句子 与 第 二 步 的 描述 规则 进 
行 匹配 ,如 果 匹 配 成 功 , 则 标记 为 候选 句 , 转 入 第 四 步 ， 
如 果 匹 配 失败 ,说 明 该 句 不 符合 这 一 条 规则 , 转 和 第 二 
cs 

第 四 步 , 由 于 匹配 过 程 中 ,一般 是 以 句子 为 单位 进 
行 匹配 的 ,一 个 完整 句子 结束 的 标志 是 由 “。”“!1”“?” 
等 来 表示 。 但 是 由 于 某 些 作 者 的 写作 习惯 ,或 者 部 分 
句子 的 特殊 性 ,不 能 仅仅 将 一 句 话 作为 一 个 知识 元 。 
例如 “投入 产 出 分 析 , 又 称 投入 产 出 核算 或 部 门 联系 平 
衡 法 。 它 作为 一 种 经 济 分 析 方 法 ,从 宏观 经 济 角 度 出 
发 ,把 国民 经 济 划 分 成 若干 不 同 但 互 有 联系 的 产品 群 ， 
借助 线性 方程 ,来 模拟 国民 经 济 结构 和 社会 生产 过 程 ， 
以 此 综合 分 析 各 部 门 之 间 的 经 济 技术 联系 和 重要 的 比 
例 关 系 ”, 这 两 句 话 实际 描述 的 是 一 个 知识 元 。 所 以 ， 
为 了 准确 识别 文本 中 描述 知识 元 的 范围 ,在 匹配 每 一 
个 句子 时 ,需要 判断 候选 名 后 是 否 有 “然后 其 \ 它 .这 、 
比如 而且 ”等 一 些 特殊 的 连接 词 .代词 .转折 词 \ 符 号 
和 序列 词 , 若 出 现 , 则 句子 位 置 后 移 , 将 后 面 的 一 句 加 
入 该 句子 , 视 为 一 个 知识 元 ,如 果 没 有 出 现 , 则 直接 标 
记 为 该 句 为 知识 元 ,并 转 入 第 一 步 ; 
第 五 步 ,将 匹配 成 功 的 知识 元 和 衔接 句 根 据 它们 
在 文本 中 出 现 的 位 置信 息 ,依次 存 人 数据库 中 ,算法 结 
Ro 

知识 元 识别 流程 图 如 图 3 所 示 : 


Bi 


N. 
实体 资源 
知识 元 fca MAII 
| 描述 规则 其 他 规则 进行 匹配 
文档 
解析 Y N 
一 一 衔接 名 
纯 文本 
y 
文本 处 理 后 的 Rma 
预 处 理 文本 集 其 他 句子 
N 
算法 结束 


3 知识 元 识别 流程 
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4 基于 知识 元 的 文本 层级 分 割 方法 
为 便于 叙述 ,本 文 将 知识 元 和 街 接 句 统称 为 短文 
本 。 基 于 知识 元 的 文本 层级 分 割 方法 如 图 4 所 示 。 首 


先 基于 最 长 公共 子 串 计算 短文 本 之 间 的 相似 度 , 进 而 
构建 短文 本 相似 度 矩 阵 ,矩阵 中 每 一 行 都 可 以 是 作为 
“Te 然后 将 待 分 割 的 文本 中 所 有 的 短文 


短文 本 向 量 构建 


知识 元 与 衔接 名 
的 提取 


< 
一 一 一 


确定 最 优 分 段 数 求解 最 优 分 割 


短文 本 向 量 构建 

-NI 以往 的 文本 分 割 中 通常 采用 向 量 空间 模型 进行 文 
EEH PI — 方面 ,向 量 空间 模型 比较 适合 

弟 攻 文本 的 比较 ,对 于 短文 本 来 说 ,该 模型 就 存在 严重 
的 妥 据 稀 朴 问题 ; 另 一 方面 向 量 空间 模型 以 词 表示 文 
本 = 才能 揭示 出 词 之 间 的 依赖 关系 ,因此 具有 一定 的 局 
n. 为 解决 这 一 问题 ,本 文通 过 计算 最 长 公共 子 串 
的 方式 计算 短文 本 之 间 的 相似 度 ,来 构建 相似 度 和 矩阵。 


A 
" 


L] 


用 集合 C = | s,s,,…,s,| 表示 含有 m 个 短文 本 的 文 
档 ,其 中 s, 表示 第 i ad 用 集合 s= [w wr, 

w, | 表示 包含 n 个 词语 的 短文 本 ,其 中 必 ,表示 在 短文 
本 s 中 第 i 个 词语 。 具 体 实现 过 程 如 下 。 


首先 , 设 长 度 分 别 为 i,j 的 两 个 短文 本 s, = wy, 
识别 两 者 之 间 的 最 长 公共 子 串 ,其 算法 见 式 (1)。 


wi 0 ;52 二 {wz ， 2022 


0 i-z0orjz0 
L[ij]- L[i-1,j-1] «1 Wy; = Wz 
max|L[i-1,j], L[i,j-1]] W 75 Wy 
XC) 


中 ,LLi,j] 表 示 长 度 为 i,j 的 短文 本 ss 之 间 
的 最 长 公共 子囊 ,w 1 表示 短文 本 s, 中 的 第 i 个 词语 。 
然后 ,对 短文 本 进行 相似 度 计算 ,其 相似 度 计算 公 
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识别 最 长 公共 子 串 


本 视 为 一 个 类 ,采用 fisher 最 优 分 割 法 对 该 类 进行 逐 级 
二 分 ,直到 识别 出 所 有 的 主题 为 止 ,将 主题 相关 的 短文 
本 归于 一 个 语义 段落 ,使 得 语义 段落 内 部 具有 最 大 相 
似 性 , 相 邻 语义 段落 之 间 具 有 最 大 相 异 性 ,进而 识别 分 
割 边 界 ,实现 文本 层级 分 割 。 接 下 来 ,本文 将 详细 论述 
各 部 分 的 实现 过 程 。 


"————————————————— 


FERLA a 
circi M 相似 度 托 阵 构 于 


XS 
E: 


定义 损失 函数 定义 分 段 直 径 


基于 fisher 最 优 分 割 法 的 文本 层级 分 割 


图 4 基于 知识 元 的 文本 层级 分 割 


式 见 式 (2)。 
L(i,j) + (max(i,]) — min(ijj) ) 式 (2) 


max(i,j) 

其 中 ,max(i,j) 表示 取 i,j 最 大 数 ,min(i,j) 表 示 
取 i,j 最 小 数 。 

接着 ,根据 短文 本 之 间 的 相似 度 来 构建 相似 度 矩 
阵 A。 最 后 ,依据 矩阵 A, 从 中 提取 出 各 短文 本 向 量 
4.2 基于 fisher 最 优 分 割 法 的 文本 层级 分 割 

在 对 文本 进行 分 割 时 ,为 了 保证 短文 本 在 文本 中 
的 写作 顺序 ,本 文采 用 基于 fisher 最 优 分 割 法 来 进行 有 
序 分 割 ” 。 具 体 流 程 如 下 。 


sim(s,,$,) = 


8 


4.2.1 定义 分 段 直径 n 为 文本 中 短文 本 的 总 数 ， 
即 ss ，…s 为 文档 中 包含 的 短文 本 。 因 为 在 文本 分 


制 过 程 中 要 保留 短文 本 之 间 的 线性 顺序 ,所 以 分 割 后 
的 每 个 类 可 由 1;,s;04,5i,2，… Sa ERIS ION (ii + 
1,…,i+k| 。 设 分 割 后 的 某 一 个 类 为 15;,s;,1,… ,sj|， 
其 中 en man. 
(3)。 类 直径 为 D(i,j) ,其 计算 公式 见 式 (4)。 

1 Àj 


yi 式 (3) 
D(j)s$(s-s)'G,-s) RA) 


4.2.2 定义 损失 函数 ”将 n 个 有 序 短文 本 分 割 为 k 


EEL, REZ 


ChinaXiv 合 作 期 刊 


， 黄 京 . 基于 知识 元 的 中 文 文本 层级 分 割 [J]. 图 书 情 报 工作 ,2019 ,63(7) :105 - 115. 


段 , 设 某 一 种 分 割 后 的 结果 如 下 : 
上 
lipi tl, en} RR CIS «heec, ems 定义 


上 述 分 制 后 的 损失 函数 L[b(n,k) ] 为 公式 (5)。 

LbQuE]sXDG.La-0 — RCG) 

其 中 ,i, 表示 分 割 1 中 的 第 一 个 短文 本 ,i +1 表 

示 分 割 1 中 第 二 个 短文 本 。 当 n,k 固定 时 , 式 (5) 的 值 

越 小 , 即 每 个 分 割 段 的 离 差 平方 和 越 小 ,其 分 割 也 就 越 

合理 。 因 此 ,文本 层级 分 隔 的 目标 就 转化 为 寻找 一 种 

使 得 损失 函数 最 小 的 分 割 分 法 b(n,k) ,将 其 最 优 分 守 
法 记 为 p(n,k)。 


4.2.3 求解 景 优 分 着 为 实现 文本 层级 分 隔 ,本 文采 
取 逐 级 二 分 的 策略 ,对 文本 进行 逐 级 二 分 ,其 二 分 公式 
XC). 

LOLLbQ.2)] = min [DO j-1) +DG,n)} 式 (6) 
0 选取 j EOS He RT ZR OE Rn 


EB 分 段 直径 越 小 ,分 割 也 就 越 合 理 ,然后 对 新 生 的 两 
ARIKE C,,G, ) 分 别 继续 进行 二 分 ,如 果 对 C, 
Apu in 数 大 于 对 C, 分 割 后 出 的 损失 函数 , 则 G, 
Ae, iOS: C, 分 割 中 的 分 割 点 ,以 此 类 推 ,继续 对 生 
所 有 的 类 分 别 进行 二 分 ,最 终 得 出 最 优 解 p(n,k) 。 
4 人 RN 确定 最 优 分 段 数 ， 对 文本 进行 分 割 时 ,并 不 是 
说 将 其 分 的 越 细 越 好 ,需要 确定 分 割 段 数 的 阔 值 k。 

,在 对 不 同文 本 进行 分 割 时 ,不 能 事先 确定 文本 中 
包 合 多 少 主题 ,应 该 生成 多 少 分 割 。 因 此 ,本 文通 过 给 
制 最 小 误差 函数 L[p(n,k) ] 随 分 割 段 数 k 的 变化 趋势 
fr Ln dul iba 

作为 确定 上 值 的 依据 需要 指出 的 是 ,我 们 不 能 


直接 确定 拐点 相对 应 的 k 值 就 是 最 佳 分 割 段 数 , 仅 能 
将 k 值 作 为 可 能 的 分 割 段 数 , 即 候选 分 段 数 。 在 寻找 
拐点 时 ,本 文通 过 计算 该 曲线 的 斜率 差 来 确定 。 关 于 
该 曲线 的 斜率 差 的 计算 公式 见 式 (7) 。 

ach) = |Het- D Hetet] 


k-1-k 
L[p(n,k)]-Llp(n,k+1)] " 
pen | A 


25 a(k) HAXE Up TELESE , k 值 所 对 应 的 点 
即 为 LLp(n,%) ] 的 拐弯 处 ,选取 该 点 及 其 附近 的 几 个 
k 值 作为 候选 分 段 数 。 


5.1 测试 语 料 选取 

根据 本 文 所 述 的 基于 知识 元 的 中 文 文本 层级 分 割 
方法 ,笔者 从 CNKI 中 选取 期 刊 论文 《文本 分 割 综述 》 作 
为 实验 测试 对 象 ,根据 上 述 的 描述 规则 识别 论文 中 的 知 
识 元 ， A T id 级 分 制 。 选 
取 该 论文 主要 因为 其 包含 事实 方法 结论 以 及 数值 等 
多 种 类 型 的 知识 ROBES HAE n e 
系 。 确 定 测试 对 象 后 , 接 下 来 本 文采 用 人 工 判断 的 方式 
来 生成 文本 分 割 点 作为 分 割 标准 。 笔 者 邀请 5 位 学 术 
研究 者 来 对 测试 语 料 进 行 分 割 ,最 后 的 分 割 结果 遵循 少 
数 服从 多 数 的 原则 ,得 出 标准 分 割 段 数 为 k=17。 
5.2 ”实验 内 容 

首先 ,构建 数据 库 ,利用 上 述 识别 知识 元 的 方法 ， 
对 测试 语 料 中 的 知识 元 进行 识别 , 按 其 文本 顺序 将 知 
识 元 和 衔接 句 存 人 数据 库 中 。 本 文 所 构建 的 短文 本 数 
据 库 见 图 5 所 示 : 


ORUM. RN 
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UB GNGENUUTDEENESN. 


. tU M PGroszROSider £C» T BENRA I dscourse segment V. 
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- P XASEGGBEN ZALE GBHMUIDUSE EN 
ione june TXOREDMPEMREUNETE BRIXLSOST Wer ms 
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5 短文 本 数据 库 图 
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然后 ,对 短文 本 进行 分 词 预 处 理 , 并 逐 级 二 分 ,每 
次 二 分 后 对 应 的 损失 函数 趋势 图 见 图 6。 相 应 的 斜率 


202307 :00535v1 


v 
> 
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420 


31 


差 变化 见 图 7。 


1 4 7 10 13 15 19 22 25 28 31 34 37 40 43 46 49 52 5558 61 64 67 70 73 76 79 82 85 88 91 


6 损失 函数 变化 图 


Al 51 61 71 81 91 


从 图 7 中 可 以 看 出 ,斜率 差 最 大 时 相对 应 的 k 值 
为 10, 其 附近 点 的 斜率 差 也 均 大 于 其 他 点 的 斜率 差 ， 
因此 ,选取 10,11,12,13 为 候选 分 割 段 数 。 从 图 6 中 
可 以 看 出 , 当 k =13 时 ,其 相对 应 的 损失 函数 是 最 小 
的 , 即 选 取 13 为 算法 返回 的 分 割 段 数 。 其 层级 分 割 后 
的 效果 图 见 图 8 ,其 中 每 一 个 数字 代表 一 个 短文 本 ,该 
实验 对 象 最 后 识别 出 92 个 短文 本 ,阴影 部 分 为 最 终 分 
割 段 中 所 包含 的 短文 本 。 


(12,87) 


23 (24,87) 


* — e, 


(24,74) (75,87) 


M E 


(77,86) 


(24,35) 
(24,32) 


Bg es 


à 2 i Po 
(24,51) 


8 基于 知识 元 进行 文本 层级 分 割 效 果 图 
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5.3 测试 评价 
首先 采用 传统 的 正确 率 P、 召 回 率 R 以 及 了 值 来 
评价 该 文本 分 割 方 法 的 性 能 ,其 计算 公式 分 别 见 公式 
(8) .公式 (9) 和 公式 (10)。 
正确 识别 的 分 割 点 数 


= 文本 正确 的 分 割 点 数 0 00D 
正确 识别 的 分 割 点 数 

P = 算法 返回 的 分 割 点 数 式 (9) 
2xPxR : 

dug xk (10) 


然而 ,以 上 这 些 评 佑 方法 只 能 评价 其 绝对 匹配 的 
结果 ,而 算法 返回 的 边界 可 能 与 人 工 判断 的 边界 只 相 
差 一 句 话 。 因 此 ,需要 进行 接近 性 评价 , 即 本 文采 用 
,其 计算 公式 


jsa 
j 


MÆ) Bes 


< N-k 
WindowDiff ref Jp) = FÈ (M bref, refina) -b 


CoD, hypin | >0) (11) 
其中 ,在 式 (11) 中 ,b(i,j) 表 示 短 文本 s, us 两 者 之 
间 的 边界 数量 ,N 表示 文本 中 短文 本 的 总 数 ,ref 代表 
的 是 人工 分 割 , 认 为 是 标准 分 割 ,nyp 代表 算法 分 割 ,k 
表 直 标准 分 割 中 所 有 分 割 长 度 的 平均 值 的 一 半 ,Win- 
AONDE 值 越 低 ,表明 分 割 算法 越 准确 。 
54^ 结果 分 析 
>< 本 文选 取 文献 "中 M. A. Hearst 提出 的 经 典 分 
TE TextTiling 进行 实验 结果 对 比 ,对 比 结果 如 表 6 所 


Q 表 6 对 比试 验 结果 


R P F WindowDiff 
本 文 算法 0.50 0.57 0.58 0.422 
TT 0.40 0.50 0.44 0. 483 


从 上 表 中 可 以 看 出 ,本 文 算法 的 准确 率 和 召回 率 
以 及 F 均 大 于 了 TT 的 值 (也 即 :0.5 »0.4,0.57 >0.50， 
0.58 >0.44) ,在 接近 性 评价 中 ,本 文 算法 的 WindowD- 
iff (H/F TT 的 值 (0. 422 «0. 483) ,综合 实验 数据 表 
明 ,本 文 算法 是 较为 合理 有 效 的。 其 主要 原因 在 于 : 

首先 ,本 文 算法 在 实现 分 割 时 ,计算 短文 本 之 间 的 
相似 度 采 用 的 是 最 长 公共 子 串 ,该 方法 有 效 克 服 了 向 
量 空间 模型 的 数据 稀 玻 与 无 法 描述 词语 之 间 依 赖 关 系 
等 问题 ,其 计算 相似 性 更 加 精准 可靠 ;其 次 ,本 文 算法 
是 基于 知识 元 实现 的 ,知识 元 作为 具有 相对 独立 意义 
的 不 可 再 分 的 最 小 知识 单元 ,以 其 为 基 元 进行 文本 分 


割 可 以 在 逻辑 上 保证 每 个 分 割 是 一 个 完整 的 知识 单 
元 ,以 知识 元 为 单位 识别 文档 分 割 点 时 误差 也 会 较 小 ; 
接着 ,由 于 TT 是 通过 确定 相 邻 文本 块 之 间 的 相似 性 变 
化 程度 来 确定 主题 边界 ,可 以 实现 局 部 最 优 ,比较 适合 
篇 幅 较 短 的 文本 ,对 于 段落 之 间 差异 较 大 的 长 文本 ,TT 
则 无 法 通 篇 考虑 其 他 段落 的 信息 ,很 难 进行 正确 的 判 
断 , 而 本 文 算法 主要 采取 的 是 自 上 而 下 逐 级 二 分 的 策 
略 ,在 文本 分 割 时 可 以 实现 全 局 最 优 。 因 此 ,基于 知识 
元 的 文本 层级 分 割 的 准确 率 、 召 回 率 以 及 F 值 相对 较 
高 ,说 明 本 文 算法 较为 合理 。 此 外 ,在 进行 接近 性 评价 
时 ,由 于 本 文 算法 主要 是 以 知识 元 为 单位 ,进行 层级 聚 
类 而 实现 文本 分 割 的 ,其 错误 分 割 一 般 只 在 衔接 句 之 
间 发 生 ,因此 ,距离 正确 分 割 点 一 般 较 近 , 而 TT 算法 是 
以 句子 为 单位 进行 分 割 的 ,其 错误 分 割 点 可 以 在 任何 
语句 之 间 发 生 , 有 的 错误 分 割 点 离 正确 分 割 点 较 远 ， 
此 TT 算 法 的 分 割 误差 相对 本 文 算法 较 大 ,也 说 明 本 文 
算法 相 较 而 言 较为 合理 有 效 。 


为 了 实现 对 具有 层次 结构 的 文档 进行 层级 分 割 的 
目的 ,并 提高 分 割 准确 性 以 及 效率 ,本 文 将 文本 分 割 算 
法 的 处 理 单位 定 为 知识 元 ,首先 归纳 知识 元 类 型 以 及 
相关 的 描述 规则 ,然后 根据 描述 规则 中 的 线索 词 来 识 
别 文 本 中 的 知识 元 ,将 待 分 割 的 文本 所 包含 的 知识 元 
和 衔接 句 视 为 一 个 类 ,基于 Fisher 最 优 算法 ,对 这 个 类 
进行 逐 级 二 分 ,直到 识别 出 所 有 主题 ,进而 形成 文本 层 
级 结构 。 该 算法 有 利于 将 知识 服务 的 控制 单位 从 文献 
单元 深入 到 知识 元 ,知识 元 集合 为 单位 ,进而 来 满足 用 
户 多 粒度 的 信息 需求 。 通 过 与 经 典 分 割 算法 TT 的 对 
比 实验 ,结果 表明 ,本 文 提出 的 文本 分 割 算法 在 精确 度 
指标 和 接近 性 评价 方面 都 有 着 一 定 的 优势 的 。 总 体 上 
来 讲 , 利 用 本 文 算法 对 文本 进行 分 割 是 合理 有 效 和 科 
学 的 。 本 文 重点 关注 如 何 利 用 知识 元 来 实现 中 文 文本 
的 层级 分 割 ,对 于 知识 元 描述 规则 的 统计 ,由 于 作者 写 
作 的 习惯 以 及 各 个 学 科 描 述 知 识 的 方法 不 同 ,产生 的 
描述 规则 也 不 同 ,因此 ,本 文 主要 采取 人 工 统计 的 方法 
对 知识 元 的 描述 规则 进行 梳理 统计 ,尚未 探讨 自动 化 
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Chinese Text Hierarchical Segmentation Based on Knowledge Element 
Wang Zhongyi' Shen Xueying Huang Jing? 
' School of Information Management, Central China Normal University, Wuhan 430079 
* Wuhan Polytechnic , Wuhan 430074 
Abstract. [ Purpose/significance] This paper aims to help users to retrieve complete and appropriate size of knowl- 
edge unit and to satisfy users" multi -granularity requirements. | Method/process] This paper proposes a hierarchical seg- 
mentation based on the knowledge element. Firstly, the method analyzes the types of knowledge elements and the descrip- 
tion rules. Secondly, it identifies the knowledge elements in the entity resources according to the knowledge element de- 
scription rules, and treats the knowledge elements and the joint sentences as a class. Finally, the fisher segmentation algo- 
rithm is used to divide the class bi-levelly until all topics are identified, and the segmentation boundaries are determined, 
to achieve the hierarchical segmentation. [ Result/conclusion | This method is based on the recognition of the knowledge 
element to segment the text. On the one hand, segmentation granularity extends from sentence to knowledge element, 
which improves the efficiency of segmentation. On the other hand, the control unit of knowledge service is deepened from 
tlie! literature into knowledge blocks with knowledge elements and knowledge elements sets as the unit, providing the nec- 
AM knowledge resources, realizing the progress from data retrieval, information retrieval to knowledge retrieval, impro- 


he efficiency of knowledge acquisition and achieving the transformation of information services to knowledge services. 


eywords: knowledge lement recognition clustering hierarchical segmentation 
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Mobile Search Behaviors :An In-depth Analysis Based on Contexts, APPs , and Devices 书 讯 
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由 匡 丹 教授 带领 团队 著述 的 英文 学 术 著 作 Mobile Search Behaviors : An. In -depth Analysis Based on Contexts, APPs, and Devices, | 
(2 2018 年 3 月 由 美国 Morgan & Claypool 出 版 社 正式 出 版 。 吴 凡 教 授与 其 研究 团队 多 年 来 长 期 致力 于 信息 检索 领域 的 研究 ,通过 多 f 
二 年 的 理论 探索 与 实践 ,对 当前 移动 互联 网 环境 下 的 用 户 搜索 行为 研究 进行 了 全 面 系统 的 总 结 。 受 美国 北 卡 罗 莱 纳 大 学 信息 与 图 d 
晴 馆 学 院 院 长 Gary Marchionini Zi 授 的 邀请 ,该 书 还 入 选 了 信息 科学 领域 的 著名 丛书 Synthesis Lectures on Information Concepts, Re- | 
rieval, and Saniees。 该 系列 从 书 自 2009 年 开始 创立 ,长 期 人 信息 科学 以 及 信息 科技 的 应 用 等 研究 主题 ,多 名 国际 知名 专家 学 者 
:的 著作 入 选 了 该 丛书 ,是 信息 科学 领域 的 重要 学 术 研 究 阵 地 ,具有 较 高 的 国际 知名 度 。 H 
近年 来 移动 互联 网 和 智能 设备 快速 发 展 ,在 跨 屏 交互 . 跨 设备 搜索 日 趋 普遍 的 背景 下 ,该 书 对 当前 移动 搜索 进行 了 系统 总 结 | 
回顾 ,深刻 阐述 了 移动 搜索 相关 研究 领域 的 最 新 进展 。 该 书 从 多 个 角度 研究 了 用 户 日 常 真 实 的 移动 搜索 行为 ,包括 移动 搜索 情 t 
,APP 使 用 行为 和 不 同 设备 的 搜索 行为 。 该 书 针对 用 户 在 真实 环境 中 的 移动 搜索 行为 特征 展开 研究 ,如 用 户 移动 搜索 策略 AE g 
于 情境 的 移动 搜索 理论 模型 .基于 情境 的 移动 搜索 任务 库 等 。 同 时 ,该 书 还 将 移动 搜索 和 APP 两 个 维度 进行 结合 ,对 移动 搜索 中 | 
的 APP 转移 和 移动 搜索 引发 的 后 续 行 为 进行 了 深入 分 析 。 此 外 ,该 书 研究 了 用 户 跨 设备 搜索 行为 ,对 跨 设备 搜索 中 的 信息 准备 行 t 
为 和 信息 恢复 行为 进行 建 模 , 评 估 了 跨 设 备 搜索 的 搜索 性 能 。 | 
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总 党 


该 书 是 当前 对 用 户 移动 搜索 行为 的 一 个 系统 总 结 , 既 有 理论 探索 ,也 有 实证 研究 。 该 书 提出 的 基于 情境 的 移动 搜索 理论 模 


型 ,能 够 成 为 今后 开展 相关 研究 的 重要 理论 基础 ;该 书 还 创新 地 在 跨 设备 搜索 中 提出 了 信息 准备 与 信息 重用 的 理念 ,并 提出 了 相 
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| 关 模 型 ,这 为 跨 设备 搜索 领域 提供 了 一 个 新 的 研究 视角 ;该 书 的 研究 成 果 弥 补 了 学 界 在 移动 搜索 任务 库 建设 方面 的 缺失 ;将 APP 
| 和 移动 搜索 结合 展开 实证 研究 ,以 及 针对 路 设备 网 络 搜索 推荐 展开 的 研究 在 图 内 也 具有 独创 性 、 前 隐 性 。 该 书 是 国内 学 术 界 在 信 
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息 检索 HPR RITA ET ARA LSR , BORGO .实践 于 一 体 ,在 国际 知名 出 版 社 出 版 也 提高 了 国内 学 者 在 本 领域 的 
国际 显示 度 。 该 书 在 理论 和 实践 方面 都 具有 创新 性 ,能 够 为 信息 检索 领域 的 研究 者 打开 更 为 宽阔 的 研究 视野 ,也 可 作为 相关 领域 
学 者 展开 研究 的 重要 参考 依据 。 
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